在最後一天的內容中,我們會以參數量、乘法數、訓練過程中每一個epoch所需的時間
與測試過程中每一筆資料樣本所需的時間
來評估靜態與動態模型的複雜度。MLP、CNN 及 LSTM-RNN 乘法運算量計算方式如下:
三種模型的複雜度分析如下:
#hidden layers | # parameters | # mul. operations | training time per epoch | test time per data
------------- | -------------
1 | 11,705 | 11,670 | 1s | 0.007s
2 | 12,635 | 12,570 | 1s | 0.008s
3 | 13,565 | 13,470 | 1s | 0.01s
表1: 靜態模型 MLP 複雜度分析
model | # parameters | # mul. operations | training time per epoch | test time per data
------------- | -------------
Basic CNN | 24,675 | 296K | 1s | 0.014s
Multi-scale CNN | 139,805 | 6.5M | 3s | 0.035s
Multi-scale CNN with attention | 149,405 | 6.7M | 3s | 0.045s
表2: 靜態模型 CNN 複雜度分析
model | # parameters | # mul. operations | training time per epoch | test time per data
------------- | -------------
LSTM-RNN (last-frame only) | 27,389 | 37,628 | 423s | 0.8s
LSTM-RNN (mean-pooling over time) | 27,389 | 37,628 | 434s | 0.8s
LSTM-RNN with attention | 25,675 | 36,230 | 215s | 0.4s
表3: 動態模型 LSTM-RNN 複雜度分析
這 30 天的語音辨識&語音情緒辨識的旅程就到這邊了,感謝大家的閱讀&指教,下台一鞠躬!!